GenAI时代的实时数据分析:Apache Pinot与向量索引技术探秘
导读 本文将分享如何使用 Apache Pinot 将实时数据分析和检索增强生成 RAG 结合起来。
主要内容包括以下四个章节:1. 实时 OLAP 的兴起
2. Apache Pinot 体系结构
3. Apache Pinot 对 AI 的支持
4. 总结
分享嘉宾|付翔 StarTree 联合创始人
编辑整理|菊
内容校对|李瑶
出品社区|DataFun
实时 OLAP 的兴起
在应用上,由面向内部的数据分析变成面向用户、面向对象的数据分析;
在数据的结构上,从结构化数据(如 SQL 表,定义好行列的数据类型)变成半结构化数据或非结构化的数据(如文本数据、Json 数据),甚至对于音频、视频的数据,可以把它们做成 embedding,存入数据库以进行更多的分析和查找;
在数据准确性上,对查询的准确一致性支持也更强;
在分析的复杂度上,原来只能做一些特点维度或切片的分析,未来可以支持复杂的 Full-SQL 语义的实时分析;
在数据量级上,从 TB 级增加到 PB 级;
在使用场景上,从特定的应用场景,到用户可探索的场景,包括机器学习和 AI 相关的各类应用场景。
Apache Pinot 体系结构
Pinot Controller。作为集群和数据管理。使用 Zookeeper、Helix 来进行集群和数据的管理,使用 Restful API 来进行沟通。
Pinot Broker。作为 Pinot 的查询层,所有请求先到 Broker,再通过它分配给具体的离线和在线服务,分别查询,之后再将结果合并起来。
Pinot Server。分为在线和离线数据服务器,在线部分直接从 Kafka 消费数据,离线部分可以从离线和远端存储层读取数据;
离线数据存储(Segment Store)。离线部分的数据存储在远程 HDFS、Amazon S3 等比较便宜的存储上,作为备份和分层查询使用;
实时数据导入(Real-time Ingestion)。从各种实时的数据源(如 Kafka、Kinesis)把数据消费进来,实时消费的数据会被写到本地数据服务器并且上传到离线数据存储用于备份。
离线数据导入(batch ingestion)。离线数据可以通过微批任务,把原始数据读出后,再写到离线存储中,然后就可以通知集群,将离线数据下载供查询使用。
Apache Pinot 对 AI 的支持
总结
通过实时 RAG 可以帮助用户获得更好的用户体验;同时,用户也可以使用他们自己的数据来辅助结果生成。
Pinot 作为一个实时向量数据库,可以提供更加实时准确的查询。
Pinot 通过结构化数据和半结构化或非结构化数据的混合负载,一起为用户提供数据分析与应用服务。
分享嘉宾
INTRODUCTION
付翔
StarTree
联合创始人
付翔是一位经验丰富的软件工程师和企业家,目前担任云原生数据分析 SaaS 公司 StarTree 的联合创始人。
在创建 StarTree 之前,他作为 Uber 流式数据平台的架构师,在技术行业做出了重大贡献。在那里,他应对了数据服务、处理和分析方面的复杂挑战,支持了 Uber Rides、Uber Eats 和 Uber Freight 等各种应用。
在加入 Uber 之前,付翔在 LinkedIn 主要负责 Apache Pinot 的开发。Apache Pinot 是一款开源分布式的实时 OLAP 数据库。他也是 Apache Pinot 的创始人和项目管理委员会(PMC)成员。
付翔于清华大学获得了电子工程的本科学位,之后在佐治亚理工学院获得了计算机的硕士学位。
活动推荐
往期推荐
金融,大模型落地的关键场景!
打造 LLMOps 时代 Prompt 数据驱动引擎
基于大模型的数据治理应用新范式
阿里云智能大数据演进
Agent+Copilot:大模型在智能运维领域的应用
从0到1,掌握大模型RAG技术原理与应用
社交传播和影响力算法在腾讯游戏中的应用实践
多场景多任务统一建模在网易云音乐的算法实践
Data+LLM:数据治理新范式探索
点个在看你最好看
SPRING HAS ARRIVED